Проектная работа

Рынок заведений общественного питания Москвы

Цель исследования:

Описание данных:

Доступен датасет с заведениями общественного питания Москвы, составленный на основе данных сервисов Яндекс Карты и Яндекс Бизнес на лето 2022 года. Файл moscow_places.csv:\ • name — название заведения;\ • address — адрес заведения;\ • category — категория заведения, например «кафе», «пиццерия» или «кофейня»;\ • hours — информация о днях и часах работы;\ • lat — широта географической точки, в которой находится заведение;\ • lng — долгота географической точки, в которой находится заведение;\ • rating — рейтинг заведения по оценкам пользователей в Яндекс Картах (высшая оценка — 5.0);\ • price — категория цен в заведении, например «средние», «ниже среднего», «выше среднего» и так далее;\ • avg_bill — строка, которая хранит среднюю стоимость заказа в виде диапазона, например: \ ◦ «Средний счёт: 1000–1500 ₽»;\ ◦ «Цена чашки капучино: 130–220 ₽»;\ ◦ «Цена бокала пива: 400–600 ₽».\ и так далее;\ • middle_avg_bill — число с оценкой среднего чека, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Средний счёт»: \ ◦ Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.\ ◦ Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.\ ◦ Если значения нет или оно не начинается с подстроки «Средний счёт», то в столбец ничего не войдёт.\ • middle_coffee_cup — число с оценкой одной чашки капучино, которое указано только для значений из столбца avg_bill, начинающихся с подстроки «Цена одной чашки капучино»: \ ◦ Если в строке указан ценовой диапазон из двух значений, в столбец войдёт медиана этих двух значений.\ ◦ Если в строке указано одно число — цена без диапазона, то в столбец войдёт это число.\ ◦ Если значения нет или оно не начинается с подстроки «Цена одной чашки капучино», то в столбец ничего не войдёт.\ • chain — число, выраженное 0 или 1, которое показывает, является ли заведение сетевым (для маленьких сетей могут встречаться ошибки):\ ◦ 0 — заведение не является сетевым\ ◦ 1 — заведение является сетевым\ • district — административный район, в котором находится заведение, например Центральный административный округ;\ • seats — количество посадочных мест.\

План работы:

Шаг 1. Загрузить данные и изучить общую информацию

Шаг 2. Выполнить предобработку данных

Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?

Выполните предобработку данных:

• Создайте столбец street с названиями улиц из столбца с адресом.
• Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7): 
    ◦ логическое значение True — если заведение работает ежедневно и круглосуточно;
    ◦ логическое значение False — в противоположном случае.

Шаг 3. Анализ данных

• Какие категории заведений представлены в данных? Исследуйте количество объектов общественного питания по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Ответьте на вопрос о распределении заведений по категориям.
• Исследуйте количество посадочных мест в местах по категориям: рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.
• Рассмотрите и изобразите соотношение сетевых и несетевых заведений в датасете. Каких заведений больше?
• Какие категории заведений чаще являются сетевыми? Исследуйте данные и ответьте на вопрос графиком.
• Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?
• Какие административные районы Москвы присутствуют в датасете? Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.
• Визуализируйте распределение средних рейтингов по категориям заведений. Сильно ли различаются усреднённые рейтинги в разных типах общепита?
• Постройте фоновую картограмму (хороплет) со средним рейтингом заведений каждого района. Границы районов Москвы, которые встречаются в датасете, хранятся в файле admin_level_geomap.geojson (скачать файл для локальной работы).
• Отобразите все заведения датасета на карте с помощью кластеров средствами библиотеки folium.
• Найдите топ-15 улиц по количеству заведений. Постройте график распределения количества заведений и их категорий по этим улицам. Попробуйте проиллюстрировать эту информацию одним графиком.
• Найдите улицы, на которых находится только один объект общепита. Что можно сказать об этих заведениях?
• Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?
• Необязательное задание: проиллюстрируйте другие взаимосвязи, которые вы нашли в данных. Например, по желанию исследуйте часы работы заведений и их зависимость от расположения и категории заведения. Также можно исследовать особенности заведений с плохими рейтингами, средние чеки в таких местах и распределение по категориям заведений.
• Соберите наблюдения по вопросам выше в один общий вывод.

Шаг 4. Детализация исследования: открытие кофейни

Основателям фонда «Shut Up and Take My Money» не даёт покоя успех сериала «Друзья». Их мечта — открыть такую же крутую и доступную, как «Central Perk», кофейню в Москве. Будем считать, что заказчики не боятся конкуренции в этой сфере, ведь кофеен в больших городах уже достаточно. Попробуйте определить, осуществима ли мечта клиентов. Ответьте на следующие вопросы:

• Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?
• Есть ли круглосуточные кофейни?
• Какие у кофеен рейтинги? Как они распределяются по районам?
• На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

По желанию вы можете расширить список вопросов для исследования, добавив собственные. Постройте визуализации. Попробуйте дать рекомендацию для открытия нового заведения. Это творческое задание: здесь нет правильного или неправильного ответа, но ваше решение должно быть чем-то обосновано. Объяснить свою рекомендацию можно текстом с описанием или маркерами на географической карте.

Шаг 5. Подготовка презентации

Подготовьте презентацию исследования для инвесторов. Отвечая на вопросы о московском общепите, вы уже построили много диаграмм, и помещать каждую из них в презентацию не нужно. Выберите важные тезисы и наблюдения, которые могут заинтересовать заказчиков. Для создания презентации используйте любой удобный инструмент, но отправить презентацию нужно обязательно в формате PDF. Приложите ссылку на презентацию в markdown-ячейке в формате: Презентация: <ссылка на облачное хранилище с презентацией> Следуйте принципам оформления из темы «Подготовка презентации».

Оглавление:

Загрузка данных:

Шаг 1. Загрузите данные и изучите общую информацию Загрузите данные о заведениях общественного питания Москвы.

Выводы:

Предобработка данных

Изучите, есть ли дубликаты в данных. Поищите пропуски: встречаются ли они, в каких столбцах? Можно ли их обработать или оставить как есть?\ Выполните предобработку данных:\ • Создайте столбец street с названиями улиц из столбца с адресом.\ • Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

    ◦ логическое значение True — если заведение работает ежедневно и круглосуточно;
    ◦ логическое значение False — в противоположном случае.

Дубликаты в данных:

Встречаются ли дубликаты в данных?

Полных дубликатов не обнаружено.

В исследуемом датасетете полные дубликаты не были обнаружены

Пропуски в данных:

Встречаются ли пропуски в данных? в каких столбцах? Можно ли их обработать или оставить как есть?

Пропуски имеются в следующих столбцах:

Редко когда бывает необходимо заполнить пропуски медианными\значениями моды. Такой подход к обработке данных может заметно исказить результаты анализа данных. Поэтому все пропуски оставляем так, как есть, и ничего не трогаем.

Создание столбцов:

• Создайте столбец street с названиями улиц из столбца с адресом.

• Создайте столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

    ◦ логическое значение True — если заведение работает ежедневно и круглосуточно;
    ◦ логическое значение False — в противоположном случае.

Cоздадим столбец street с названиями улиц из столбца с адресом:

Создадим столбец is_24/7 с обозначением, что заведение работает ежедневно и круглосуточно (24/7):

◦ логическое значение True — если заведение работает ежедневно и круглосуточно;
◦ логическое значение False — в противоположном случае.

Вывод:

Анализ данных

Какие категории заведений представлены в данных?

Количество посадочных мест в местах по категориям

рестораны, кофейни, пиццерии, бары и так далее. Постройте визуализации. Проанализируйте результаты и сделайте выводы.

В данном пункте мы рассмотрели распределение посадочных мест по категориям и выяснили:

Соотношение сетевых и несетевых заведений в датасете.

Круговая диаграмма наглядно иллюстрирует соотношение сетевых и несетевых заведений в датасете - 38,1% против 61,9%.

Топ-15 популярных сетей в Москве

Сгруппируйте данные по названиям заведений и найдите топ-15 популярных сетей в Москве. Под популярностью понимается количество заведений этой сети в регионе. Постройте подходящую для такой информации визуализацию. Знакомы ли вам эти сети? Есть ли какой-то признак, который их объединяет? К какой категории заведений они относятся?

Заведения по административным районам Москвы. Отобразите общее количество заведений и количество заведений каждой категории по районам. Попробуйте проиллюстрировать эту информацию одним графиком.

Рейтинги по категориям заведений.

Хороплет со средним рейтингом заведений каждого района.

Проанализировав данные, отображенные на хороплете, можем сделать следующий вывод:

Отобразили все заведения датасета на карте с помощью кластеров средствами библиотеки folium. Отметили следующую закономерность: По мере движения от центра к окраине Москвы, количество заведений общественного питания постепенно уменьшается.

Значения средних чеков заведений хранятся в столбце middle_avg_bill. Эти числа показывают примерную стоимость заказа в рублях, которая чаще всего выражена диапазоном. Посчитайте медиану этого столбца для каждого района. Используйте это значение в качестве ценового индикатора района. Постройте фоновую картограмму (хороплет) с полученными значениями для каждого района. Проанализируйте цены в центральном административном округе и других. Как удалённость от центра влияет на цены в заведениях?

Глядя на хороплет, мы можем убедиться в том, что самые дорогие средние чеки в заведениях в центральном и западном округах.

• Соберите наблюдения по вопросам выше в один общий вывод.

Детализация исследования: открытие кофейни

Сколько всего кофеен в датасете? В каких районах их больше всего, каковы особенности их расположения?

Вывод

Есть ли круглосуточные кофейни?

Вывод

Какие у кофеен рейтинги? Как они распределяются по районам?

Вывод

На какую стоимость чашки капучино стоит ориентироваться при открытии и почему?

Вывод

Рекомендации:

Без обратной связи и бОльшей информации от инвесторов и учредителей сложно дать конкретные рекомендации. Как правило, для того, чтобы принять такое важное решение об открытии собственного заведения и выбора для него места - необходима сплоченная работа заказчика, аналитиков и многих других сотрудников. Наше исследование получилось очень поверхностным.Было бы неплохо обратить внимание на перспективные районы с малым количеством заведений на текущий момент и соотнести их с местами скопления большого количества людей, остановками общественного транспорта и метро. Многое зависит от других факторов, которые мы не учитываем: например, от бюджета на открытие заведения, необходимых сроков окупаемости. На данный момент на рынке общепита более популярны кафе. Если разместить объект на одной из топ-15 улиц,то поток покупателей будет обеспечен,т.к.это многолюдные популярные, большие улицы, которые находятся в центре и усеяны бизнес-центрами, достопримечательностями и местами туристической инфраструктуры. Основываясь на высокой стоимости чашки капучино, стоит обратить внимание на Центральный, Западный и Юго-Западный административные районы. Здесь посетителям более привычно видеть высокий ценник. Заведение окупится быстрее. Возможно стоит обратить внимание на район с самыми низкими рейтингами и сделать будущее кафе самым популярным и качественным, если работать на хороший рейтинг. Самый низкий средний рейтинг в Западном административном округе (ниже 4.2). Лучше всего открывать кофейню возле мест высокой проходимости, например, метро, либо возле учебных заведений, офисов.

Ссылка на презентацию:

https://disk.yandex.ru/i/zjK2ODhb__usZQ